Jet-RL: Permitiendo el Aprendizaje de Refuerzo FP8 On-Policy con Entrenamiento Unificado y Flujo de Precisión de Rollout Optimiza el aprendizaje de refuerzo FP8 con entrenamiento unificado para obtener resultados más efectivos y eficientes. 2026-01-27 · 4 min